Meta Cognitive Prompt

概要

人間がメタ認知をするときの過程に沿って、LLMを動作させる手法。

効果

メタ認知プロンプト論文において、GPT-3.5, GPT-4などのモデルにNLUタスクをさせると、既存の手法であるCoT (Chain-of-Thought)などよりも精度が高かった。

どんな手法?

https://scrapbox.io/files/658681bda56bca0023b44d3b.png

LLMに対し、以下の5つのことをさせる

1. テキストを解釈する

この文章の内容と意味を理解し，要点をまとめてください．

この文章は何について述べているか，簡潔に説明してください．

この文章の主題と議論の流れを把握し、要約してください．

この文章のキーワードと主張を特定して、内容を確認してください．

この文章の背景と文脈を考慮し、主要なアイデアを理解してください．

2. 初期の判断を行う

1段階目での理解に基づき，この文章の内容に対するあなたの予備的な判断を述べてください．

この文章の意味を考慮し，最初の印象としてどのように判断しますか？

現時点での理解によると，この文章の主張に対してあなたは賛成ですか？反対ですか？

この文章の主題と論点を踏まえ，予備的にどの見解を支持しますか？

段階的に考えを発展させるため，まずはこの文章に対する自分の第一印象的な判断を述べてください．

3. 初期の判断を批判的に評価する

2段階目のあなたの予備的な判断は正しいと思いますか？不確定な場合は再考してください．

もう一度予備判断を評価し，それが妥当かどうか検討してください．

予備判断に反する可能性のある要素がこの文章にはないか注意深く確認してください．

予備判断を支持する証拠と，反証の証拠のどちらが強いか評価してください．

予備判断に確信が持てない場合，どの点をもう一度考え直すべきか特定してください．

4. 最終決定を下し、その理由を説明する

3段階目の評価に基づき，あなたの最終的な判断を述べてください．

批判的評価後のあなたの結論を簡潔に説明してください．

あなたの最終判断に至った論理的な理由をstep-by-stepで説明してください．

なぜその最終判断が最善の判断だと思うのか，根拠を示してください．

可能性のある他の選択肢を検討し，最終判断が妥当である理由を述べてください．

5. 信頼性の評価

あなたの最終判断に対する確信性を0-100%で述べてください．

最終判断に至るまでの推論過程の正確さを評価してください．

判断の信頼性が低いと思われる点があれば具体的に述べてください．

最終判断の妥当性を支持する証拠は十分だと思いますか？評価してください．

もしこのタスクを再度行った場合，同様の判断に至る確率はどの程度だと思いますか？

https://scrapbox.io/files/658681f212d512002417aadf.png

https://drmagician.exblog.jp/30413453/

実際のプロンプトの例

質問内容を丁寧に理解してください。

質問に対する最初の回答案を作成してください。

回答案が正しいか、批判的に評価してください。

最終的な答えを確認し、その選択の背後にある理由を説明ください。

最終的な回答についての自信度(0-100%)を評価してください。

論文で紹介されたプロンプトテンプレート

zero shot

https://github.com/EternityYW/Metacognitive-Prompting/blob/main/prompts/zero_shot_prompts.pdf

質問応答(CoPA)

code:markdown

メタ認知的なプロンプティング：前提がsentenceである場合、以下のうち最ももっともらしい効果／原因はどれか？選択肢1：choice_1、選択肢2：choice_2。このタスクを実行する際は、以下のステップに従ってください。

1. 前提と両方の選択肢の理解を明確にする。

2. どちらの選択肢が最ももっともらしい効果／原因であるかを初期に特定する。

3. 初期の分析を批判的に評価する。最初の選択について不確かな気持ちがある場合は、再評価を試みる。

4. 最終的な答えを確認し、選択の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「最ももっともらしい効果／原因は（選択肢1／選択肢2）です」として提供してください。

メタ認知的なプロンプティング：前提が"彼女は、シリアルの中に虫が入っているに気づいた"である場合、以下のうち最ももっともらしい効果／原因はどれか？選択肢1："彼女はミルクをそこに注いだ"、選択肢2："彼女は食欲がなくなった"。このタスクを実行する際は、以下のステップに従ってください。

1. 前提と両方の選択肢の理解を明確にする。

2. どちらの選択肢が最ももっともらしい効果／原因であるかを初期に特定する。

3. 初期の分析を批判的に評価する。最初の選択について不確かな気持ちがある場合は、再評価を試みる。

4. 最終的な答えを確認し、選択の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「最ももっともらしい効果／原因は（選択肢1／選択肢2）です」として提供してください。

感情分析(SSTI)

code:markdown

この文〇〇について、この文の感情がポジティブかネガティブかを判断してください。

中立の場合は除外してください。このタスクを実行する際には、以下の手順に従ってください：

1. 文の意味を明確に理解する。

2. 与えられたテキストの感情を初期に特定する。

3. あなたの初期分析を批判的に評価する。最初の感情分類に自信がない場合は、再評価を試みてください。

4. 最終的な答えを確認し、その選択の背後にある理由を説明する。

5. あなたの分析の自信度（0-100％）を評価し、この信頼度レベルに対する説明を提供する。

最終的な回答は「感情は{}です（ポジティブ/ネガティブ）」としてください。」

テキスト含意（WNLI）

code:markdown

2つの文、文1 {sentence_1}と文2 {sentence_2}について

文2が文1によって含意されているかどうかを判断してください。

このタスクを実行する際には、以下の手順に従ってください：

1. 両方の文の意味を明確に理解する。

2. 与えられた文のペアの含意を初期に特定する。

3. あなたの初期分析を批判的に評価する。最初の含意分類に自信がない場合は、再評価を試みてください。

4. 最終的な答えを確認し、その選択の背後にある理由を説明する。

5. あなたの分析の自信度（0-100％）を評価し、この信頼度レベルに対する説明を提供する。

最終的な回答は「含意の状態は{}です（含意あり/含意なし）」としてください。」

語義曖昧性解消(WiC: 与えられた単語が2つの異なる文脈で同じ意味を持つか)

code:markdown

メタ認知的プロンプティング：2つの文、文1：sentence_1および文2：sentence_2の両方に、ターゲットワードwordが含まれています。両方の文でターゲットワードが同じ意味で使用されているかどうかを判断します。このタスクを実行する際は、以下のステップに従ってください。

1. 両方の文でターゲットワードの文脈と意味を理解する。

2. 両方の文でターゲットワードが同じ意味を持つかどうかについて、初期の判断を下す。

3. 初期の分析を批判的に評価する。最初の判断について不確かな場合は、それを再評価する。

4. 最終的な答えを確認し、決定の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「両方の文でターゲットワードが同じ意味を持つ：（真 / 偽）」として提供してください。

共参照解決（WSC: 代名詞の参照先を正確に理解する）

code:markdown

メタ認知的プロンプティング：テキストpassageをもとに、span2_text（位置span2 index）がspan1_text（位置span1 index）を指しているかどうかを判断します。このタスクを実行する際は、以下のステップに従ってください。

1. テキストを理解し、span2_textとspan1_textの間の参照関係を考慮する。

2. span2_textがspan1_textを指しているかどうかについて、初期の判断を下す。

3. 初期の分析を批判的に評価する。最初の判断について不確かな場合は、それを再評価する。

4. 最終的な答えを確認し、決定の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答をspan2_textはspan1_textを指している：（真 / 偽）」として提供してください。

質問回答含意（QNLI）

code:markdown

メタ認知的プロンプティング：質問questionと文sentenceに対して、その文が質問に答えているかどうかを判断します。もし文が質問に答えている場合、その状態は含意(entailment)です。もし答えていない場合、その状態は非含意(not entailment)です。このタスクを実行する際は、以下のステップに従ってください。

1. 質問と文脈の文の理解を明確にする。

2. 文脈の文が質問に答えているかどうかを初期の特定する。

3. 初期の分析を批判的に評価する。最初の含意の分類について不確かな場合は、再評価を試みる。

4. 最終的な答えを確認し、選択の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「含意の状態は（含意 / 非含意）です」として提供してください。

テキスト類似性（STS-B: ２つの文章の類似性を評価）

code:markdown

メタ認知的プロンプティング：以下の2つの文sentence_1とsentence_2の類似性を評価してください。スコアは0.0（関連性なし）から5.0（高い類似性）の範囲で、小数点を含むことができます。このタスクを実行する際は、以下のステップに従ってください。

1. 両方の文の理解を明確にする。

2. 主題、文脈、および意味内容に基づいて類似性を初期に特定する。

3. 初期分析を批判的に評価する。最初の類似性スコアについて不確かな場合は、再評価を試みる。

4. 最終的な類似性スコアを確認し、その決定の理由を提供する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「類似性スコアはscoreです」として提供してください。

質問パラフレーズ（QQP: 2つの質問文が同じ意味かどうか）

code:markdown

メタ認知的プロンプティング：質問のペアに対して、質問1：question_1および質問2：question_2が互いに言い換え（paraphrase）であるかどうかを判断します。このタスクを実行する際は、以下のステップに従ってください。

1. 両方の質問の理解を明確にする。

2. 主題、文脈、および意味内容に基づいて類似性を初期的に特定する。

3. 初期分析を批判的に評価する。質問が言い換えであるという初期の評価について不確かな場合は、再評価を試みる。

4. 質問が言い換えであるかどうかについての最終的な決定を確認し、その決定の理由を提供する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「言い換えの状態は？（言い換え / 言い換えではない）」として提供してください。

CB(文が与えられた文脈に対してどの程度納得できるか)

code:markdown

メタ認知的プロンプティング：前提sentenceと仮説sentenceを考えます。前提に基づいて、仮説が含意されるか、矛盾するか、または中立かを判断します。このタスクを実行する際は、以下のステップに従ってください。

1. 前提と仮説の理解を明確にする。

2. 前提が仮説を含意するか、矛盾するか、または中立かを初期に特定する。

3. 初期判断を批判的に評価する。最初の含意分類について不確かな場合は、再評価を試みる。

4. 最終的な答えを確認し、選択の背後にある理由を説明する。

5. 分析に対する自信（0-100%）を評価し、この信頼度のレベルについての説明を提供する。

最終的な回答を「含意の状態は？（含意 / 矛盾 / 中立）」として提供してください。